Introduction à la modélisation générative : aller au-delà de la discrimination

Nous passons de la modélisation discriminative, qui résolvait les problèmes de classification et de régression en apprenant la probabilité conditionnelle $P(y|x)$, vers le domaine sophistiqué de la modélisation générative. Notre objectif central passe désormais à l'estimation de densité: apprendre la distribution de données sous-jacente complète $P(x)$ elle-même. Ce changement fondamental nous permet de capturer les dépendances complexes et la structure intrinsèque des jeux de données à haute dimension, en allant au-delà de la simple séparation par une frontière vers une véritable compréhension et synthèse des données.

1. L'objectif génératif : modélisation de $P(x)$

L'objectif d'un modèle génératif est d'estimer la distribution de probabilité $P(x)$ à partir de laquelle proviennent les données d'entraînement $X$. Un modèle génératif réussi peut accomplir trois tâches essentielles : (1) l'estimation de densité (attribution d'une note de probabilité à une entrée $x$), (2) l'échantillonnage (génération de nouveaux points de données $x_{new} \sim P(x)$), et (3) l'apprentissage non supervisé de caractéristiques (découverte de représentations significatives et désenchevêtrées dans un espace latent).

2. Taxonomie : vraisemblance explicite vs. implicite

Les modèles génératifs sont fondamentalement catégorisés selon leur approche de la fonction de vraisemblance.Modèles de densité explicite, tels que les autoencodeurs variationnels (VAEs) et les modèles de flux, définissent une fonction mathématique de vraisemblance et tentent de la maximiser (ou sa borne inférieure).Modèles de densité implicite, le plus célèbre étant les réseaux antagonistes génératifs (GANs), évitent entièrement le calcul de la vraisemblance, apprenant plutôt une fonction de correspondance pour échantillonner à partir de la distribution $P(x)$ en utilisant un cadre d'entraînement antagoniste.

Synthèse de données et interpolation de caractéristiques

Les modèles génératifs démontrent leur capacité en générant des instances nouvelles et de haute fidélité (par exemple, des visages inédits, des textures complexes) ou en permettant une interpolation sémantique dans l'espace latent appris, illustrant ainsi la maîtrise du modèle de la variabilité des données.

Examples of AI-generated faces and interpolated features.

Question 1

Dans la modélisation générative, quelle est la distribution principale d'intérêt ?

$P(x)$

$P(y|x)$

$P(x|y)$

$P(y)$

Question 2

Quel type de modèle génératif repose sur l'entraînement antagoniste et évite de définir une fonction de vraisemblance explicite ?

Autoencodeur variationnel (VAE)

Modèle autorégressif

Réseau antagoniste génératif (GAN)

Modèle de mélanges gaussiens (GMM)

Défi : Détection d'anomalies

Utilisation de l'estimation de densité

Une institution financière a entraîné un modèle génératif de densité explicite $G$ sur des millions d'enregistrements de transactions légitimes. Une nouvelle transaction $x_{new}$ arrive.

Objectif : Déterminer si $x_{new}$ est une anomalie (fraude).

Étape 1

Sur la base de l'estimation de densité de $P(x)$, quelle mesure statistique doit être évaluée pour $x_{new}$ afin de la signaler comme anormale ?

Solution :
Le modèle doit évaluer la probabilité (ou la vraisemblance) $P(x_{new})$. Si $P(x_{new})$ tombe en dessous d'un seuil prédéfini $\tau$, ce qui signifie que le nouveau point est statistiquement improbable sous la distribution apprise des transactions normales, il est signalé comme une anomalie.